【新闻推荐系统】(task1)系统搭建基本流程 您所在的位置:网站首页 sinanews sina cn 【新闻推荐系统】(task1)系统搭建基本流程

【新闻推荐系统】(task1)系统搭建基本流程

#【新闻推荐系统】(task1)系统搭建基本流程| 来源: 网络整理| 查看: 265

学习总结

sparrow电影推荐系统和我们本次要搭建的新闻推荐系统类似:

首先是离线处理部分: 获取数据:爬取数据后画像处理。用户画像和物品画像,物料存入MongoDB中的​​​SinaNews​​​数据库中;MongoDB中的用户画像,来自mysql中的用户注册表和用户日志数据(如阅读量、点赞数、收藏数等)。这里我们用MongoDB是因为其文档类似于JSON对象,增删字段非常方便。处理完的物料会存入redis中(直接从MongoDB拉去会比较卡),前端展示。 PS:这里为了方便搭建,数据并不是实时在线获得,但是每晚固定时间会爬取数据。然后是线上服务器处理部分: OnlineServer:sparrow电影推荐系统,为了搭建工业级高并发服务器,是用了java的Jetty嵌入式服务器框架(用到Servlet 服务),类似的,这里的新闻推荐系统搭建的服务器供线上服务,在获取推荐页列表和热门页列表中,就是含有召回层、排序层、再排序层的“过滤”过程。 RecsysServer:根据用户的各种请求(注册、登录、推荐等请求),服务器接收请求后进行处理。项目整体运行与调试: (1)注册用户;爬取新浪新闻;更新物料画像、更新用户画像 (2)清除前一天redis中的数据,更新最新今天最新的数据 (3)离线将推荐列表和热门列表存入redis (4)重新登录用户查看新闻参考锐锋大佬的document,继续搞搞搞!文章目录​​学习总结​​​​一、学习版图​​​​二、新闻推荐系统​​​​三、前端部分​​​​3.1 安装依赖包​​​​3.2 修改前端访问IP和端口​​​​3.3 修改访问后端API接口的IP和端口​​​​3.4 运行前端项目​​​​四、后端部分​​​​4.1 安装conda环境,并创建虚拟环境​​​​4.2 安装依赖文件​​​​4.3 修改后端项目的IP和端口​​​​4.4 修改项目路径配置文件proj_path.py(存疑)​​​​4.5 核对数据库配置文件dao_config.py​​​​4.6 启动雪花算法服务​​​​4.7 启动后端项目​​​​五、数据库部分​​​​六、召回、排序、再排​​​​七、项目整体运行与调试​​​​7.1 注册用户​​​​7.2 爬取新浪新闻​​​​7.3 更新物料画像​​​​7.4 更新用户画像​​​​7.5 清除前一天redis中的数据,更新最新今天最新的数据​​​​7.6 离线将推荐列表和热门列表存入redis​​​​7.7 重新登录用户查看新闻​​​​附:时间规划​​​​Reference​​一、学习版图

回顾之前学习王喆老师的《深度学习推荐系统》的sparrow recsys电影推荐系统,大家都会很着急地了解最新的推荐架构中的神经网络模型,如下图的经典推荐模型。整个深度学习推荐模型的演化过程,是从最经典的多层神经网络向不同方向开枝散叶,比如结合协同过滤发展出了 NerualCF,加入 Embedding 层发展出以 Deep Crossing 为代表的 Embedding+MLP 的结构,以及把深度神经网络和单层网络结合起来发展出 Wide&Deep 模型等等。

【新闻推荐系统】(task1)系统搭建基本流程_redis

但再从“宏观”的角度看,推荐系统不仅结合推荐算法, 还和工程紧密结合,之前的sparrow电影推荐架构(离线数据处理部分,推荐系统模型和线上服务器部分,还有前端),作为推荐算法工程师虽然重点关注召回层、排序层、再排序层等,但系统中相关工程也最好掌握,如图:

【新闻推荐系统】(task1)系统搭建基本流程_数据_02

那么其实类似地,sparrow电影推荐系统和我们本次要搭建的新闻推荐系统类似:

(1)首先是离线处理部分:

获取数据:爬取数据后画像处理。用户画像和物品画像,物料存入MongoDB中的​​SinaNews​​数据库中;MongoDB中的用户画像,来自mysql中的用户注册表和用户日志数据(如阅读量、点赞数、收藏数等)。这里我们用MongoDB是因为其文档类似于JSON对象,增删字段非常方便。处理完的物料会存入redis中(直接从MongoDB拉去会比较卡),前端展示。

PS:这里为了方便搭建,数据并不是实时在线获得,但是每晚固定时间会爬取数据。

(2)然后是线上服务器处理部分: OnlineServer:sparrow电影推荐系统,为了搭建工业级高并发服务器,是用了java的Jetty嵌入式服务器框架(用到Servlet 服务),类似的,这里的新闻推荐系统搭建的服务器供线上服务,在获取推荐页列表和热门页列表中,就是含有召回层、排序层、再排序层的“过滤”过程。 RecsysServer:根据用户的各种请求(注册、登录、推荐等请求),服务器接收请求后进行处理。

【本次学习目标】熟悉项目大部分的代码,并能理解下面这张图的流程、含义。

【新闻推荐系统】(task1)系统搭建基本流程_redis_03

二、新闻推荐系统

项目运行环境: 操作系统:Windows10 MySQL:8.0.25 Redis:5.0.14 Mongodb:5.0.5 Mini-Conda Python 3.8 前端IDE:WebStorm2021.1 后端IDE:PyCharm Professional 2021.1 访问MySQL和Mongodb的数据库工具:DataGrip 2021.1 访问Redis的工具:redis-desktop-manager-0.9.9.99.exe

可以先看下实现的项目效果:http://47.108.56.188:8686/

如果在电脑上打开,需要按F12键转为移动端:

【新闻推荐系统】(task1)系统搭建基本流程_redis_04

登录之后的效果如下,查看network:

【新闻推荐系统】(task1)系统搭建基本流程_数据_05

能看到多了个​​login​​(从后端得到的),前后端通过json交互:

【新闻推荐系统】(task1)系统搭建基本流程_redis_06

另外的​​rec_list?user_id=andyguo​​​是一坨json格式,我们可以复制扔到菜鸟教程的​​JSON在线解析器​​​转换(结果如下图右侧),其中​​data​​是一个数组,每个元素对应一条新闻。

【新闻推荐系统】(task1)系统搭建基本流程_数据_07

小结:前后端通过URL发送的信息交互。

历史信息:用户、物料、用户日志信息。

三、前端部分

路径:news_rec_web/Vue-newsinfo/src 登录后通过post请求,进行push等,需要明白前后端对应的URL分别是啥。

3.1 安装依赖包

在Terminal中执行如下命令:

cnpm install

或者

npm install -g cnpm --registry=https://registry.npm.taobao.org3.2 修改前端访问IP和端口

打开文件package.json,修改第49行的IP和端口,修改内容如下:

"scripts": { "test": "echo \"Error: no test specified\" && exit 1", "dev": "webpack-dev-server --open --port 8686 --contentBase src --hot --host 127.0.0.1", "start": "nodemon src/main.js"},

127.0.0.1表示游览器的访问IP(也称为本地IP),8686表示访问端口

3.3 修改访问后端API接口的IP和端口

打开文件main.js,文件路径:src/main.js,修改第23行的IP和端口,修改内容如下:

// Vue.prototype.$http = axiosVue.use(VueAxios, axios);// axios公共基路径,以后所有的请求都会在前面加上这个路径// axios.defaults.baseURL = "http://10.170.4.60:3000";// axios.defaults.baseURL = "http://47.108.56.188:3000";axios.defaults.baseURL = "http://127.0.0.1:5000"

127.0.0.1表示后端项目的访问IP(也称为本地IP),5000表示访问端口。

3.4 运行前端项目

在Terminal中执行命令运行前端项目,命令如下:

npm run dev

游览器会自动访问地址:http://127.0.0.1:8686/#/

四、后端部分

server路径:news_rec_server/server.py 爬虫框架:materials/news_scrapy 对爬取的数据进行画像处理:scheduler/offline_material_and_user_process.sh

轻量级python程序应用框架Flask,可参考教程:https://www.w3cschool.cn/flask/。

4.1 安装conda环境,并创建虚拟环境

创建指定路径的Python环境,执行命令如下:

conda create --prefix venv python=3.8

在PyCharm中,设置Python解释器

4.2 安装依赖文件

在Terminal中执行命令安装依赖包,命令如下:

pip install -r requirements.txt4.3 修改后端项目的IP和端口

打开文件server.py,修改第233行的IP和端口,修改内容如下:

if __name__ == '__main__': # 允许服务器被公开访问 # app.run(debug=True, host='0.0.0.0', port=3000, threaded=True) # 只能被自己的机子访问 app.run(debug=True, host='127.0.0.1', port=5000, threaded=True)

127.0.0.1表示后端提供给前端的IP(也称为本地IP),5000表示端口。

4.4 修改项目路径配置文件proj_path.py(存疑)

修改项目路径配置文件proj_path.py,文件路径:conf/proj_path.py

# home_path = os.environ['HOME']# proj_path = home_path + "/fun-rec/codes/news_recsys/news_rec_server/"proj_path = os.path.join(sys.path[1], '')4.5 核对数据库配置文件dao_config.py

打开数据库配置文件dao_config.py,文件路径:conf/dao_config.py,核对以下配置:

# MySQL默认配置mysql_username = "root"mysql_passwd = "123456"mysql_hostname = "localhost"mysql_port = "3306"

# MongoDB配置mongo_hostname = "127.0.0.1"mongo_port = 27017

# Redis配置redis_hostname = "127.0.0.1"redis_port = 6379

4.6 启动雪花算法服务

在Terminal中执行命令启动雪花算法服务,用于生成用户ID,启动命令如下:

snowflake_start_server --address=127.0.0.1 --port=8910 --dc=1 --worker=14.7 启动后端项目

启动server.py程序(注:在此之前,必须启动完成数据库并创建数据库),执行如下命令: python server.py

五、数据库部分

数据库配置:news_rec_server/conf/dao_config.py 有介绍各个数据库(mysql、MongoDB、redis)数据表的简要信息。

# 数据库相关的配置文件user_info_db_name = "userinfo" # 用户数据相关的数据库register_user_table_name = "register_user" # 注册用户数据表user_likes_table_name = "user_likes" # 用户喜欢数据表user_collections_table_name = "user_collections" # 用户收藏数据表user_read_table_name = "user_read" # 用户阅读数据表exposure_table_name_prefix = "exposure" # 用户曝光数据表的前缀

# log数据,每天都会落一个盘,并由时间信息进行命名loginfo_db_name = "loginfo" # log数据库loginfo_table_name_prefix = "log" # log数据表的前缀

# 默认配置mysql_username = "root"mysql_passwd = "123456"mysql_hostname = "localhost"mysql_port = "3306"

# MongoDBmongo_hostname = "127.0.0.1"mongo_port = 27017# Sina原始数据sina_db_name= "SinaNews"sina_collection_name_prefix= "news"# 物料池db name material_db_name = "NewsRecSys"

# 特征画像 集合名称feature_protrail_collection_name = "FeatureProtrail"redis_mongo_collection_name = "RedisProtrail"user_protrail_collection_name = "UserProtrail"

# Redisredis_hostname = "127.0.0.1"redis_port = 6379

reclist_redis_db_num = 0static_news_info_db_num = 1dynamic_news_info_db_num = 2user_exposure_db_num = 3

# 类别映射字典cate_dict = { '2510': '国内', '2511': '国际', '2669': '社会', '2512': '体育', '2513': '娱乐', '2514': '军事', '2515': '科技', '2516': '财经', '2517': '股市', '2518': '美股'}

(1)对于MongoDB的配置,可以参考​​博客​​。 (2)可以用datagrip软件查

六、召回、排序、再排

new_rec_server/reprocess/offline:冷启动等 生成热门列表的模板,生成冷启动的模板。

对于冷启动,我们是根据年龄性别分,将人群分为4类,根据模板进行复用。

如果用户在搜索篮球商品,出现各种篮球商品推荐那还算正常,但是如果是兴趣推荐栏目中这样就有点问题了(一连串都是一类商品,篮球),所以我们需要对召回、排序后的结果,根据特定的类别进行打散。 关于根据类别的打散,可以参考:​​在广告/搜索/推荐系统中 对展示结果打散的通用鲁棒算法​​。

七、项目整体运行与调试7.1 注册用户7.2 爬取新浪新闻

通过查看crawl_news.sh文件(文件路径:scheduler/crawl_news.sh),可知爬取新浪新闻的代码在如下目录 /materials/news_scrapy/sinanews/run.py 使用PyCharm的Run按钮,手动执行该代码,需要配置参数:

—pages=307.3 更新物料画像

通过查看offline_material_and_user_process.sh文件(文件路径:scheduler/offline_material_and_user_process.sh),可知更新物料画像的代码在如下目录: materials/process_material.py 使用PyCharm的Run按钮,手动执行该代码

7.4 更新用户画像

通过查看offline_material_and_user_process.sh文件(文件路径:scheduler/offline_material_and_user_process.sh),可知更新用户画像的代码在如下目录: materials/process_user.py 使用PyCharm的Run按钮,手动执行该代码

7.5 清除前一天redis中的数据,更新最新今天最新的数据

通过查看offline_material_and_user_process.sh文件(文件路径:scheduler/offline_material_and_user_process.sh),可知清除前一天redis中的数据,更新最新今天最新的数据的代码在如下目录: materials/update_redis.py 使用PyCharm的Run按钮,手动执行该代码

7.6 离线将推荐列表和热门列表存入redis

通过查看run_offline.sh文件(文件路径:scheduler/run_offline.sh),可知离线将推荐列表和热门列表存入redis的代码在如下目录: recprocess/offline.py 使用PyCharm的Run按钮,手动执行该代码

7.7 重新登录用户查看新闻附:时间规划

【新闻推荐系统】(task1)系统搭建基本流程_redis_08

Reference

(1)datawhale notebook (1)项目:https://github.com/datawhalechina/fun-rec (3)推荐算法资料:https://github.com/ruyiluo/Reco-Res (4)石塔西知乎:https://www.zhihu.com/people/xiao-guo-zhen-60 (5)张老师的《从零开始构建企业级推荐系统》 (6)王喆《深度学习推荐系统》 (7)flask中文官方文档:https://dormousehole.readthedocs.io/en/latest/ (8)锐锋大佬的help document (9)https://relph1119.github.io/my-team-learning/#/recommender_system32/task01 (10)https://share.weiyun.com/u3ZIjZfg (11)​​​面试官:讲讲雪花算法,越详细越好​​



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有